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摘要 : [目的 /意义 ] 通过 对 CORE 论文 关系 发 现 过 程 及 其 服务 的 详细 剖析 ， 和 希望 为 我 国 开 
放 获 取 知 识 库 在 论文 内 容 的 推荐 和 语义 链接 方面 提供 有 力 的 参考 和 借鉴 。 [ 方法 /过 程 ] 从 基 
于 语义 相似 度 的 论文 关联 关系 发 现 过 程 和 基于 论文 关系 的 语义 服务 两 方面 进行 分 析 。 其 中 ， 基 
于 语义 相似 度 的 论文 关联 关系 发 现 过 程 包括 元 数据 和 全 文 内 容 收 割 、 论 文 之 间 关 系 语义 相似 度 
计算 两 方面 ; 基于 发 现 的 论文 关联 关系 的 语义 服务 包括 论文 推荐 服务 和 关联 开放 数据 服务 。 最 
后 总 结 CORE 对 我 国 机 构 知 识 库 的 应 用 建议 。[ 结果 /结论 ] 研究 发 现 ，CORE 系统 通过 现 有 
OAI-PMH 协议 自动 收割 开放 获取 知识 库 中 的 元 数据 ， 并 进一步 提取 元 数据 中 URI 字段 ， 通 过 
HTTP 协议 下 载 全 文 。 基 于 发 现 的 论文 语义 关系 提供 论文 推荐 服务 和 论文 关联 数据 服务 ， 使 得 
第 三 方 系统 可 以 利用 CORE 数据 集 ， 这 些 都 为 我 国 开放 获取 知识 库 〈 如 机 构 知 识 库 、 开 放 获 取 
期 刊 ) 在 论文 关系 的 推荐 和 语义 链接 方面 提供 有 力 的 参考 。 
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开放 获取 (open access, OA ) 运动 推动 和 促 。 ”技术 基础 设施 ， 用 以 支持 内 容 的 搜索 、 发 现 、 
进 了 全 球 科研 成 果 的 免费 访问 和 开放 获取 知识 ， 挖掘、 分 析 等 这 些 功能 。 目 前 的 大 多 数 开放 获 
库 的 建设 与 发 展 。 但 是 ， 目 前 开放 获取 不 应 该 ” 取 技 术 基 础 设施 ( 如 机 构 知 识 库 、 主 题 知识 
只 是 实现 科研 成 果 的 开放 ， 而 是 要 在 现 有 基础 ”科研 数据 知识 库 等 ) 大 都 是 基于 元 数据 的 访问 ， 
上 ， 充 分 发 挥 OA 的 潜力 ， 通 过 改进 现 有 的 OA ”而 要 实现 开放 获取 内 容 的 挖掘 、 分 析 等 功能 ， 
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必须 实现 OA 元 数据 集成 向 内 容 集成 的 有 效 转 
换 。 为 此 ， 由 欧 共 体 资助 的 项 目 “ 欧 洲 研究 开 
放 获 取 基 础 设施 ( the Open Access Infrastructure 
for Research in Europe, OpenAIRE ) ”通过 建 
立 全 欧 人 研究 信息 平台 来 收割 和 监测 欧 共 体 和 其 
他 国家 资助 者 的 开放 获取 研究 成 果 ， 从 而 提 
供 丰 富 的 元 数据 服务 和 科学 成 果 链 接 服 务 ， 
该 项 目 开 始 于 2009 年 12 月 1 日 , 已 从 第 一 
代 发 展 到 第 五 代 ( 第 一 代 OpenAIRE、 第 二 
代 OpenAIREplus、 第 三 代 OpenAIRE2020、 第 
四 代 OpenAIRE-Advance、 第 五代 OpenAIRE- 
Nexus ) "。 和 截至 2021 年 3 月 ,美国 的 共享 
访问 研究 生态 系统 (Shared Access Research 
Ecosystem, SHARE) 对 182 个 数据 源 的 6 575 万 
多 个 研究 成 果 进 行 了 集成 所 。 法国 的 HAL (Hyper 
Articles en Ligne) 主要 对 法 国 的 科研 成 果 进 行 集 
成 ， 由 法 国 国家 科学 研究 中 心 的 计算 科学 与 控 
制 研究 所 运行 管理 ， 目 前 收录 了 168 个 机 构 的 
251 万 多 条 数据 趾 。 我 国 由 CALIS 组 建 的 机 构 
知识 库 整 合 系统 中 国 高 校 机 构 知 识 库 联盟 集成 
了 50 家 成 员 机 构 的 286 万 条 元 数据 中， 香港 机 
构 知 识 库 整合 系统 对 香港 的 8 个 大 学 的 42.6 万 
条 数据 进行 了 集成 马 。 但 目前 的 这 些 开 放 获 取 
技术 基础 设施 ， 只 是 从 元 数据 层面 对 不 同 来 源 
的 研究 成 果 进 行 聚 合 和 集成 ， 并 没有 进一步 从 
全 文 内 容 对 论文 和 论文 之 间 的 关联 关系 进行 集 
成 和 发 现 。CORE ( COnnecting Repositories ) 四 
是 第 一 个 从 全 文 内 容 来 发 现 论文 之 间 的 关联 关 
系 的 系统 ， 并 将 发 现 的 论文 关联 关系 通过 不 同 
的 方式 回 用 户 提供 语义 服务 ( 如 推荐 服务 、 关 
联 数据 服务 ) 。 

基于 此 ， 对 CORE 中 论文 关联 关系 的 发 现 
过 程 以 及 在 此 基础 上 提供 的 语义 服务 进行 详细 
解析 和 具体 应 用 介绍 ， 可 为 我 国 开放 获取 知识 
库 在 论文 内 容 的 推荐 和 语义 链接 方面 提供 有 力 
的 参考 和 借鉴 。 


Q CORE 概况 
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2011 年 由 英国 开放 大 学 知识 媒体 研究 所 P. Knoth 
构建 的 系统 站， 目的 是 通过 与 数字 图 书馆 和 机 构 
知识 库 的 紧密 合作 ， 整 合 分 布 在 不 同系 统 上 的 
开放 资源 ， 这 些 资源 包括 英国 开放 获取 期 刊 平 
台 (Directory of Open Access Journals, DOAJ ) 、 
世界 各 地 机 构 知 识 库 和 主题 知识 库 中 的 元 数据 
与 全 文 ， 并 在 此 基础 上 提供 了 一 系列 的 资源 免 
费 访问 服务 来 进一步 促进 科研 成 果 的 开放 获 
取 ， 这 一 举措 对 英国 的 开放 获取 运动 做 出 了 巨 
大 的 贡献 ， 芮 定 了 英国 开放 获取 内 容 汇 总 的 地 
位 。 因 此 ，CORE 自 创建 以 来 就 获得 来 自 英国 
联合 信息 系统 
Committee, JISC ) 中 和 欧盟 委员 会 (European 
Commission, EC ) 等 一 系列 机 构 的 资助 ， 并 在 
后 续 通 过 DiggiCORE 和 ServiceCORE 两 个 项 
目 继 续 开 发 了 一 些 平台 新 功能 。DiggiCORE 
( Digging Into Connected Repositories ) 项 目的 
目标 是 通过 使 用 自然 语言 处 理 技术 和 社会 网 络 
分 析 方 法 分 析 大 量 的 开放 获取 科研 出 版 物 ， 实 
现 研究 团体 行为 模式 、 研 究 领 域 趋势 和 研究 人 
员 引 文 行为 的 识别 ， 以 发 现 高 影响 力 的 论文 ， 
用 于 开发 搜索 和 浏览 数字 馆藏 更 好 的 方法 ， 同 
时 形成 评价 科研 影响 力 和 学 者 影响 力 的 新 方法 。 
ServiceCORE 项 目的 目标 是 通过 进一步 改进 完 
善 CORE 技术 基础 设施 ， 开 发 面向 科研 成 果 
的 主题 分 类 系统 和 知识 发 现 系 统 ， 如 在 CORE 
Linked Data 知识 库 之 上 构建 的 新 Web 服务 层 ， 
提供 对 内 容 和 元 数据 的 可 编程 访问 ; 构建 基于 
文本 挖掘 的 增强 型 相关 资源 发 现 系 统 ; 使 用 文 
本 分 类 技术 ( 支持 向 量 机 ) 对 内 容 进 行 基于 主 
题 的 自动 分 类 的 工具 等 ""。 
截至 2021 年 3 月 ， 该 系统 已 收割 来 自 13 799 
个 机 构 知 识 库 和 主题 知识 库 的 2.1 亿 多 篇 开放 
FRB Me", CORE 系统 的 特点 是 不 像 其 他 的 
开放 获取 搜索 系统 只 提供 元 数据 ，CORE 还 集 
成 了 全 文 内 容 ， 确 保 了 科研 成 果 全 文 的 免费 访 
问 和 下 载 。 目 前 ，CORE 系统 提供 了 3 种 类 型 
的 服务 : 原始 数据 访问 服务 、 内 容 管理 服务 和 
内 容 发 现 服务 中。 同时 为 了 提高 其 检索 率 ， 
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CORE 于 2019 实现 了 CORE-MAG 映射 ， 即 将 
CORE 中 的 数据 映射 为 微软 学 术 图 谱 (Microsoft 
Academic Graph, MAG)D。 

(1) 原始 数据 访问 服务 : 包括 CORE 
API、CORE Dataset 和 CORE FastSync 服 务 。 
CORE API 为 访问 CORE 中 的 大 量 数据 提供 了 一 
个 入 口 ， 目 前 有 两 个 版 本 : 一 个 是 提供 XML 或 
JSON 格式 数据 的 RESTful API 接口 ， 另 一 个 是 
关联 开放 数据 SPARQL iim “1, CORE Dataset 
支持 用 户 批量 下 载 CORE 中 的 数据 ， 用 于 数据 
处 理 、 分 析 和 挖掘 ， 数 据 包括 论文 元 数据 和 全 
文 、CORE 到 MAG 实体 的 映射 数据 。CORE 
FastSync 可 以 无 颖 访问 从 主要 出 版 商 的 非 标准 
系统 中 汇总 的 金色 和 混合 开放 获取 论文 ， 数 据 
通过 FastSync 协议 公开 和 共享 。 

(2) 内 容 管 理 服 务 包括 CORE 
Repository Dashboard 和 CORE Repository Edition 
服务 。CORE Repository Dashboard 是 专 为 知识 
库 管 理 员 设计 的 知识 库 面板 工具 ， 目 标 是 提供 
对 聚合 内 容 的 管理 和 控制 。CORE Repository 
Edition 是 一 套 面向 图 书馆 、 机 构 知 识 库 和 内 容 
管理 商 的 工具 套件 ， 可 用 于 提高 机 构 人 研究 成 果 
的 可 发 现 性 、 数 据 访问 的 合 规 性 等 。 

(3) 内 容 发 现 服 务 包括 CORE 
Recommender 和 CORE Discovery. CORE 
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2.1 CORE 数据 获取 
2.1.1 元 数据 的 收割 
元 数据 收割 的 来 源 包括 开放 获取 知识 库 ( 机 
构 知识 库 、 主 题 知识 库 ) 和 出 版 商 数据 库 两 类 。 
C1) 开放 获取 知识 库 中 的 元 数据 。 开 放 
获取 知识 库 中 的 元 数据 收割 是 通过 开放 存档 倡 
议 的 元 数据 收割 协议 ( Open Archives Initiative 
Protocol for Metadata Harvesting, OAI-PMH ) 0 
请 求 来 实现 的 ，OAI-PMH 成 功 的 请 求 返回 一 个 
XML 文档 ， 其 中 包含 有 关 存 储 在 知识 库 中 的 论 
文 的 元 数据 信息 。 元 数据 收割 过 程 中 使 用 到 的 
技术 是 OCLC OAIHarvester2004， 这 是 一 个 通过 
OAI-PMH 协议 进行 元 数据 收割 的 JAVA 类 集合 
TRA, 
(2) 出 版 商 数据 库 中 的 元 数据 。 针 对 不 文 
F? OAI-PMH 协议 的 出 版 商 数据 库 中 的 元 数据 ， 
CORE 团队 开发 了 CORE Publisher Connector 5| 
擎 ， 可 以 无 缝 访问 和 获取 出 版 商 数据 库 中 的 金 
色 和 混合 开放 获取 类 型 的 论文 ， 通过 资源 同步 
协议 FastSync 进行 同步 。 与 只 收割 元 数据 提供 
互 操作 性 的 OALPMH 协议 相 比 ，FastSync 协 
议 可 以 共享 任何 类 型 的 资源 ( 包括 元 数据 和 实 
际 数据 ) ， 并 在 网 上 提供 先进 的 同步 机 制 。 
FastSync 协议 是 ResourceSync 协议 的 改进 版 本 ， 
ResourceSync 协议 开始 于 2011 年 底 ， 是 美国 


Recommender 作为 一 个 插件 ， 可 以 用 于 在 
CORE 和 其 他 开放 获取 知识 库 之 间 推 荐 语义 相 
似 的 论文 -CORE Discovery 是 一 个 浏览 器 插件 ， 
支持 绕 过 出 版 商 免费 访问 CORE 中 的 论文 。 


@ 基 于 语义 相似 度 的 CORE 论文 关 
系 发 现 过 程 

基于 语义 相似 度 的 CORE 论文 关系 发 现 过 
程 包括 数据 获取 和 论文 关联 关系 发 现 两 个 阶段 。 
数据 获取 主要 是 通过 从 可 用 的 开放 获取 知识 库 
中 收割 元 数据 记录 和 全 文 内 容 ， 并 对 收割 到 的 
元 数据 和 全 文 进行 索引 ; 论文 关联 关系 发 现 主 
要 是 通过 文本 挖 据 技 术 对 收割 到 的 论文 之 间 的 
语义 关系 进行 计算 与 发 现 。 


家 信息 标准 组 织 ( National Information Standards 
Organization,NISO ) 和 开放 存档 倡议 团队 (OAI ) 
合作 开发 的 项 目 ， 由 斯 隆基 金 会 资助 ， 建 立 在 
同步 元 数据 的 OAI-PMH 策略 基础 上 ， 这 个 项 
目 旨 在 加 强 现代 网 络 技术 的 使 用 规范 。CORE 
是 最 早 部 署 ResourceSync 协议 以 分 发 大 量 学 术 
文献 的 公司 之 一 ， 这 些 文献 可 以 扩展 到 数 百 万 
条 ， 并 且 能 够 进行 实时 更 新 。 目 前 , 已 收割 了 
Elsevier, Springer Nature, Frontiers 和 PLoS 四 
大 出 版 商 中 180 万 篇 开放 获取 的 论文 局 。 
2.1.2 全 文 内 容 的 下 载 

开放 获取 知识 库 将 全 文 文档 的 URL 作为 元 
数据 的 一 部 分 提供 ， 因 此 ， 全 文 内 容 的 获取 是 
在 从 收割 到 的 元 数据 中 提取 URI 字 段 之 后 ， 通 
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KM 
过 HTTP 协议 自动 从 知识 库 下 载 获 得 的 。 从 开 
放 获 取 知识 库 下 载 PDF 全 文 是 通过 一 组 Java 类 
( 如 DownloadPdf 类 等 ) 来 实现 的 ， 在 下 载 的 
过 程 中 为 了 解决 下 载 速度 慢 的 问题 CORE 通 
过 使 用 缓冲 流 (BufferedStream ) "KALNA 
先 下 载 到 服务 器 上 ， 用 以 解决 远程 服务 器 响应 
非常 慢 时 会 自动 取消 下 载 的 问题 。 
2.1.3 元 数据 和 全 文 索引 

完成 元 数据 和 全 文 收割 之 后 ，CORE 通过 
Apache Lucene 对 收割 到 的 元 数据 和 全 文 文档 建 
立 索 引 。Apache Lucene 项 目 开 发 了 3 个 开源 搜 
索 软 件 ， 包 括 : Lucene Core, Solr, PyLucene. 
Lucene Core 是 其 核心 子 项 目 ， 提 供 基 于 Java 的 
索引 和 搜索 技术 、 拼 写 检 查 、 命 中 突出 显示 和 
高 级 分 析 /标记 化 功能 ;Solr 是 一 个 使 用 Lucene 
Core 构建 的 高 性 能 搜索 服务 器 ， 具 有 XML / 
HTTP 和 JSON / Python / Ruby 应 用 程序 接口 ， 
支持 命中 突出 显示 、 分 面 搜索 、 缓 存 、 复 制 和 
Web 管理 界面 ; PyLucene 是 Lucene Core ™ H 
的 Python žm O P 
2.2 基于 语义 相似 度 的 CORE 论文 关系 发 现 

CORE 论文 关联 关系 的 发 现 是 通过 语义 关 
AN el POR O At AA 
言 处 理 技术 从 下 载 的 论文 中 提取 文本 ， 然 后 通 
过 计算 “论文 对 ”之 间 的 语义 相似 度 来 识别 其 
关联 强度 。 为 了 识别 和 计算 论文 之 间 的 语义 相 
似 性 ,CORE 系统 通过 向 量 空间 来 表示 文档 内 容 ， 
即将 内 容 转 换 为 一 组 词语 向 量 ， 并 通过 找到 相 
似 的 向 量 来 找到 相似 的 文档 。 该 系统 选择 使 用 
Apache Tika (PDFBox ) T43 P A PDF 文档 
中 提取 文本 ， 该 工具 包 可 从 1 000 多 种 不 同 的 文 
件 类 型 ( 如 PPT、XLS 和 了 PDF ) 中 识别 和 提取 
元 数据 和 文本 ， 并 基于 TF-IDF 向 量 之 间 的 余弦 
相似 度 来 计算 论文 之 间 的 相似 度 。 


具体 而 言 ， 可 将 CORE 论文 关系 发 现 过 程 
分 为 以 下 4 个 步 又 : 


(1) 分 词 处 理 。 对 CORE 下 载 到 的 论文 进 
行 词法 分 析 ， 构建 词语 字典 7 所 
有 的 论文 可 被 表示 为 N x M 的 词语 和 矩阵。 其 中 ， 


N 
~ 
D 
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N 表示 论文 数量 ，M 表示 对 每 篇 文章 进行 词法 
分 析 后 形成 的 词语 数量 ， 每 篇 论文 对 应 于 和 矩阵 
中 某 一 行 的 向 量 。 

(2) TF-IDF {Ñ 的 计 算 。TF-IDF (terms 
frequency-inverse document frequency) 是 指 
TF*IDF， 用 来 评估 某 个 词语 在 文档 集合 中 的 重 
要 程度 。TF 即 词 频 (terms frequency) ， 指 革 
个 词语 在 单个 文章 中 的 出 现 次数 ; IDF 即 逆 文 
档 频 率 (inverse document frequency ) = log,(N/ 
DF)， 其 中 DF(document frequency) 表示 包含 某 
个 词语 的 文档 数量 。TF-IDF 的 主要 思想 是 : 一 
个 词语 对 一 篇 文章 的 重要 性 主要 是 依靠 它 在 文 
件 中 出 现 的 次 数 ， 如 果 这 个 词语 在 这 篇 文章 中 
的 出 现 次 数 越 高 ， 则 表明 这 个 词语 对 于 这 篇 文 
章 的 重要 性 越 高 ;同时 ， 它 还 与 这 个 词语 在 整 
个 文档 中 出 现 的 文章 篇 数 有 关 ， 随 着 出 现 的 篇 
数 越 多 ， 则 会 降低 这 个 词语 在 这 篇 文章 中 的 重 
要 性 ， 大 包含 某 此 项 的 文档 越 少 ，IDEF 就 越 大 ， 
则 该 词语 对 不 同类 别 文档 的 区 分 度 就 越 高 。 

算法 流程 如 下 : 首先 对 文档 进行 分 词 ， 并 
去 除 停 用 词 ; 然后 统计 各 个 词语 在 单个 文档 中 
出 现 的 次 数 和 文档 集合 中 词语 出 现 的 次 数 ; 最 
后 计算 得 出 其 TF-IDF 值 。 

@ TF 词 频 的 计算 公式 如 下 所 示 : 

词 频 (TF ) = 某 个 词语 在 文章 中 的 出 现 次 数 
AX (1) 

由 于 需要 考虑 不 同 的 文章 ， 长 度 不 同 ， 需 
要 将 词 频 进行 归 一 化 处 理 ， 如 公式 〈2 ) 所 示 : 
词 频 (TF ) = 某 个 词语 在 文章 中 的 出 现 次 数 / 

文章 的 总 词 数 公式 (2) 

@ IDF 的 计算 公式 如 下 所 示 : 

道 文档 频率 (IDF ) =log,( 文档 总 数 / 包含 该 词 
的 文档 数 ) 公开 (3) 

计算 逆 文 档 频率 的 原因 是 为 了 去 除 哪些 经 
常 出 现 的 词语 ， 比 如 说 “的 ”“ 我 们 ”“ 他 ” 
等 这 类 的 词语 ， 这 些 词语 对 于 整 篇 文档 重要 性 
不 高 、 但 是 出 现 的 频率 会 比较 多 ， 有 可 能 会 影 
响 到 最 后 的 计算 结果 ， 如 果 是 经 常 出 现 的 词语 
则 不 能 作为 文 草 的 关键 词 。 
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@@ 计 算 TF-IDF 的 值 ， 计 算 公 式 如 下 所 示 : 
TF-IDF = 词 频 ( TF )* 逆 文 档 频率 (IDF ) 公 式 ( 4 ) 
(3) 排序 。 对 文章 词语 的 TF-IDF 值 进行 
排序 ， 从 中 选择 提取 TF-IDF 值 比较 大 的 词语 ， 
合并 成 一 个 集合 ， 计 算 每 篇 文章 对 于 这 个 集合 
中 的 词 的 词 频 ， 生 成 文章 各 自 的 词 频 向 量 ， 接 
下 来 计算 文章 词 频 向 量 之 间 的 相似 度 。 
(4) 相似 度 计算 。 目 前 存在 许多 用 于 计算 
两 个 向 量 之 间 的 相似 性 的 计算 方法 ， 例 如 余弦 
相似 性 、dice 系数 或 Jaccard 方法 ， 并 且 有 一 些 
研究 在 计算 相似 性 之 前 采用 降低 矢量 的 维 数 算 
法 来 提高 性 能 。CORE 采用 了 最 标准 的 相似 度 
计算 方法 : 在 TF-IDF 向 量 基础 上 计算 余弦 相似 
度 。 与 其 他 相似 度 计算 方法 相 比 ，TF-IDF 向 量 
的 余弦 相似 度 方法 比较 成 熟 ,， 已 被 用 于 自动 链 
接生 成 系统 中 PI, 完整 性 的 公式 如 下 : 


ee iil 公式 (5) 


可 以 通过 夹 角 的 大 小 ， 来 判断 向 量 的 相似 
程度 。 夹 角 越 小 , 余弦 值 越 大 ， 就 代表 越 相似 。 


© 基于 发 现 的 CORE 论文 语义 关系 
的 服务 

CORE 在 基于 发 现 的 论文 语义 关系 基础 
上 为 用 户 提供 了 相似 论文 推荐 服务 和 关联 开放 
数据 服务 。 其 中 ， 相 似 论 文 推 荐 服务 以 CORE 
Recommender 插件 和 CORE API 形式 提供 ; 关 
联 开 放 数 据 服务 是 指 CORE 将 论文 之 间 相 似 性 
的 数据 作为 关联 数据 发 布 ， 并 在 Linked Data 
Cloud”! 中 注册 。 
3.1 CORE 推荐 服务 

Æ 2013 Æ 4 H, CORE 首次 发 布 了 适用 
F Eprints 知识 库 中 的 推荐 系统 ， 名 称 为 CORE 


Widget， 发 布 在 Eprints 商店 (Eprints Bazaar ) 
中 中， 一 个 用 于 安装 Eprints 附件 组 件 、 补 丁 的 
商店 。 2016 年 10 H, CORE 推出 了 新 的 版 本 ， 


对 原 有 “CORE Widget” 推 荐 系统 进行 了 许多 改 
进 与 升级 ， 重 新 命名 为 CORE Recommender, 
新 升级 的 推荐 系统 不 仅 文 持 在 CORE 中 推荐 相 
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似 的 论文 ， 而 且 也 可 以 部 署 在 其 他 知识 库 和 期 
刊 系统 中 来 推荐 相似 论文 。 其 中 Eprints 知识 库 
只 需 在 Eprints Bazaar 中 下 载 即 可 ; 对 于 其 他 知 
识 库 (Dspace, Fedora, OJS) ， 只 需 通 过 插入 
一 段 Javascript 代码 片段 就 可 安装 中。 目前 已 被 
用 于 多 个 知识 库 中 ， 如 斯 特 拉 斯 克 莱 德 机 构 知 
识 库 Strathprints?”, PT SEY LAY VR RE 
网 络 LA Referenciar 、 俄 罗斯 国立 职业 师范 大 
学 机 构 知 识 库 所 、 预 印 本 知识 库 arXiv5 等 。 

为 了 提高 所 推荐 的 相似 论文 的 质量 ，CORE 
Recommender 采用 多 个 过 滤器 和 众 包 机 制 来 
筛选 推荐 的 论文 ， 如 只 提供 开放 获取 的 论文 、 
仅 包 含 至 少 一 组 最 小 元 数据 属性 的 论文 、 包 含 
缩 略 图 的 论文 等 。 另 外 在 某 些 情况 下 ，CORE 
Recommender 可 能 会 提供 不 相关 的 甚至 错误 的 
推荐 ， 为 此 CORE 通过 为 用 户 提供 反馈 按钮 进 
行 错误 上 报 。 如 果 用 户 反 馈 所 推荐 的 论文 不 合 
i, CORE 会 将 这 些 论 文 列 人 黑 名单 ， 不 会 再 
在 推荐 列表 中 显示 ( 见 图 1)。 

CORE Recommender 有 两 种 使 用 方式 。 第 
一 种 方式 是 作为 推荐 系统 部 署 在 CORE 系统 内 ， 
oe 荐 相似 的 论文 ( 见 图 1 ) 。 

二 种 方式 是 作为 推荐 插件 安装 并 集成 到 知识 
aus 刊 系统 中 ， 当 用 户 访问 知识 库 中 的 

一 个 论文 页 面 时 ， 插 件 会 向 CORE 发 送 有 关 所 
访问 条 目的 信息 ，CORE 会 返回 相似 论文 列表 ， 
目前 提供 了 两 种 形式 的 相似 列表 : 一 种 是 来 源 
于 CORE 知识 库 中 的 相似 论文 ; 另 一 种 是 用 户 
访问 的 知识 库 中 的 相似 论文 ( 见 图 2 ) 。 

3.2 CORE 论文 关系 关联 数据 服务 

2011 4F, CORE 发布 了 在 40 多 万 篇 全 文 
论文 关系 相似 度 计算 基础 上 生成 的 300 多 万 个 
RDF 三 元 组 ， 实 现 了 论文 之 间 相 似 度 元 数据 的 
关联 数据 发 布 ， 以 便于 第 三 方 以 灵活 的 形式 进 
行 访问 。CORE 在 将 论文 相似 度 关系 发 布 为 关 
联 数据 过 程 中 ， 选 择 Sesame?" 平台 作为 三 元 组 
存储 器 ， 用 于 发 布 关联 数据 。 接 下 来 笔者 将 对 
CORE 论文 关系 发 布 为 关联 数据 的 数据 模型 和 
实现 机 制 进 行 阐述 。 
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.Linked Open Data cloud Dem Linked Open Data Projekt des W3Cs ist es zu verdanken, dass 2007 erste freie Datensets in RDF 
gemäß der Linked Data Prinzipien umgewandelt und im Web publiziert wurden.2 Seitdem gilt das Prinzip, wer selbst Linked 
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3.2.1 CORE 数据 模型 

遵循 关联 数据 原则 ， 在 将 数据 发 布 为 关 
联 数据 时 ， 尽 可 能 复 用 已 有 的 词汇 表 或 本 体 来 
描述 数据 ， 以 便 外 部 世界 更 容易 将 新 数据 与 
已 有 的 数据 集 和 服务 集成 在 一 起 。CORE 采用 
MuSim 相似 度 本 体 (The Similarity Ontology- 
MuSim ) !, 45 A AX (Bibliographic ontology, 
BIBO ) P” 以 及 自己 构建 的 本 体 (core) 来 表示 
CORE 知识 库 中 论文 之 间 的 关系 。 

MuSim 相似 度 本 体 由 伦敦 大 学 女王 玛 
丽 数 字音 乐 中 心 的 K.Jacobson、BBC H3 Y. 
Raimond, 、 德 累 斯 顿 技术 大 学 工 Gingler 等 合作 
开发 ， 最 初 在 设计 时 主要 用 于 表示 音乐 之 间 的 
相似 性 ， 但 它 也 可 以 应 用 到 其 他 领域 来 表示 两 
个 事物 之 间 的 相似 性 和 关联 性 ， 以 便于 在 不 同 
的 环境 下 进行 相关 性 事物 的 推荐 和 发 现 ， 这 个 
本 体 中 包含 5 个 类 和 13 个 属性 。 在 CORE PE 
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要 利用 其 属性 实现 对 相似 度 计 算 方 法 、 相 似 度 
权重 进行 语义 描述 。 

BIBO 书 目 本 体 是 由 F. Giasson fil B. 
D’ Arcus 合作 开发 的 一 个 本 体 ， 用 于 在 语义 
网 中 用 于 描述 书目 参考 文献 和 引文 的 一 些 基 本 
的 类 和 属性 ， 可 扩展 性 比较 强 ， 其 他 的 词汇 也 
可 以 混合 在 BIBO 本 体 中 ， 如 FOAF WE, DC 
词汇 、Event 词汇 等 。 在 CORE 中 利用 BIBO 
中 的 类 和 属性 对 论文 的 文献 类 型 、 作 者 等 进行 
语义 描述 。 

CORE 发 布 的 论文 相似 度 关 系 关 联 数据 
以 一 篇 文档 为 主语 ， 文 档 类 型 (rdf:type ) 、 
相 似 的 论 文 (MuSim:element), OAI 标识 
符 (core:hasOAIRepositoryldentifier, core: 
hasOAlldentifier ) 、 论 文 之 间 的 相似 度 权 计算 方 
法 ( MuSim:method )、 相 似 度 权重 ( MuSim:weight ) 
为 属性 ( 见 图 3 和 图 4) 。 


3 CORE 论文 关系 关联 数据 模型 


3.2.2 Sesame 关联 数据 实现 机 制 
Sesame 是 一 个 查询 和 分 析 RDF 数据 的 开源 
框架 ,最 初 由 荷兰 软件 公司 Aduna 创建 ，2016 
年 5 月 由 Eclipse RDF4J6 项目 继承 ， 主 要 以 
两 个 Java Web 应 用 程序 的 形式 运行 : OpenRDF 
Sesame 服 务 4f (OpenRDF Sesame Server) 和 
OpenRDF 工作 平台 (OpenRDF Workbench ) 
Gl, OpenRDF Sesame 服务 器 通过 HITP 来 访 
问 Sesame 库 ， 除 了 提供 一 些 服 务 器 日 志 信 息 


的 查看 功能 外 ， 不 提供 任何 面向 用 户 的 功能 。 
OpenRDF Workbench 通过 一 个 网 页 界面 提供 
面向 用 户 的 查询 、 浏 览 、 更 新 、 输 出 等 功能 。 
CORE 自 创 建 以 来 ,一 直 使 用 Tomcat Web 服务 
ft Pl 作为 应 用 程序 容器 ， 这 是 一 个 支持 Java 
Servlets 和 JSP 技术 的 Web 服务 器 ， 所 以 CORE 
将 Sesame 的 两 个 组 成 部 分 OpenRDF Sesame 
Server 和 OpenRDF Workbench 部 署 X Tomcat 
Web 服务 器 上 的 Java Servlet 应 用 程序 1 
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独 的 Servlet 软件 包 在 永久 服务 器 上 对 这 
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Crdf: RDF xmlns:nsl="http: //core. kmi. open. ac. uk-sesame. open. ac. uk/openrdf-sesame/repositories/core/OAlRepositoryldentifier” xmlnsirdf="http: //www. 3. or g/1999/02/22-r df-syn 
“rdf: Description rdf: about="http: //oro. open. ac. uk/62/1/JVGR_paper_2002. pdf”> 
<ch_type xmlns="http: //www. w3. org/TR/rdf-schema/#” rdf:resource="http://purl. org/ontology/bibo/Document”/> 


<element xmlns="http: //purl. 
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open. ac. uk/data/simNode/626800"/> 
open. ac. uk/data/simNode/629110"/> 
open. ac. uk/data/simNode/639090"/> 
open. ac. uk/data/simNode/639091"/> 
open. ac. uk/data/simNode/639092"/> 
open. ac. uk/data/simNode/639093" /> 
open. ac. uk/data/simNode/639094"/> 
open. ac, uk/data/simNode/639102"/> 
open. ac, uk/data/simNode/639209"/> 
open. ac. uk/data/simNode/639290"/> 
open. ac. uk/data/simNode/641119"/> 
open. ac. uk/data/simNode/641314"/> 
open. ac. uk/data/simNode/642250"/> 
open. ac. uk/data/simNode/642676"/> 
open, ac. uk/data/simNode/642826" /> 
open. ac. uk/data/simNode/644805"/> 
open. ac. uk/data/simNode/659022"/> 
open. ac. uk/data/simNode/659783"/> 
open. ac. uk/data/simNode/663341"/> 
open. ac. uk/data/simNode/675734"/> 
open. ac. uk/data/simNode/675784"/> 
open. ac. uk/data/simNode/677182"/> 
open. ac. uk/data/simNode/685005"/> 
open. ac. uk/data/simNode/690627"/> 
open. ac, uk/data/simNode/696825"/> 
open. ac. uk/data/simNode/713811"/> 
open. ac. uk/data/simNode/713815"/> 
open. ac. uk/data/simNode/713824"/> 
open. ac. uk/data/simNode/716688"/> 
open. ac. uk/data/simNode/718957"/> 
open. ac. uk/data/simNode/743434"/> 
open. ac. uk/data/simNode/743457"/> 
open. ac, uk/data/simNode/743506"/> 
open. ac. uk/data/simNode/778240"/> 
open. ac. uk/data/simNode/781396"/> 
open. ac. uk/data/simNode/836710"/> 
open. ac. uk/data/simNode/856184"/> 
open. ac. uk/data/simNode/862142"/> 
open. ac. uk/data/simNode/889135" /> 
open. ac, uk/data/simNode/889802"/> 


chasOAlIdentifier xmlns="http://core. kmi. open. ac. uk/data/”>oai: open. ac. uk. OAI2:62</has0AIIdenti fier) 
<hasOAIRepositoryIdentifier xmlns="http://core. kmi. open. ac. uk/data/” rdf:resource="http://oai.rbexplorer. com/id/Open Research Online (ORO)/oai: open. ac. uk. OAI2:62"/> 
“rdf: type rdf:resource="http: //purl. org/ontology/bibo/Document"/> 


<frd£:Description> 


“rdf:Description rdf: about="http://core. kmi. open. ac. uk/data/simNode/626800"> 
<method xmlns="http://purl. org/ontology/similarity/” rdf:resource="http://core. kmi. open. ac. uk/onto/method/cosine’/> 
“weight xmlns="http://purl. org/ontology/similarity/” rdf: datatype="http: //www. w3. or g/2001/XMLSchematfloat”>0. 115159</wei ght> 


</rdf: Description) 
</rdf:RDF> 


4 CORE 论文 关系 RDF 数据 (NT) 


具体 而 言 Sesame 分 为 以 下 3 个 层级 : 

(1) 存储 层 和 推理 层 。Sesame 的 存储 
和 推理 功能 通过 SAIL (Storage and Inference 
Layer, SAIL) API P” 实 
储 库 抽象 出 的 API, 
memory triplestore ) 


triplestore ) 和 关系 型 数据 库存 储 ， 并 有 两 个 单 


实现 ， 这 是 一 个 从 底层 存 
支持 内 存 三 元 组 存储 (in- 
磁盘 三 元 组 存储 (on-disk 


此 三 元 


组 存储 需 进 行 访问 管理 。 
(2) 关联 数据 转换 层 。 关 联 数据 转换 过 程 


通过 Sesame Rio (RDF ) 软件 包 实 现 。Sesame 
Rio (RDF ) 软件 包 是 由 一 个 基于 Java 的 RDF 
解析 顺和 编写 需 组 成 的 简单 API， 用 于 输入 / 输 
出 RDF 数据 ， 用 户 可 以 通过 在 运行 应 用 程序 时 
将 解析 融和 编写 融 放 在 Java 类 路 径 上 来 轻松 扩 
展 列表 。 

(3) 关联 数据 查询 和 访问 层 。 通 过 Sesame 
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的 Access API 可 以 访问 这 些 功 能 模块 ， 它 由 两 
个 独立 的 部 分 组 成 : Repository API 和 Graph 
API。Repository API 提供 对 Sesame 存储 库 的 高 
级 访问 、 例 如 查询 存储 RDF 文 件 、 提 取 RDF 等 。 
Graph API 为 RDF 操作 提供 了 更 细 粒 度 的 支持 ， 
例如 添加 和 删除 单个 语句 以 及 创建 直接 来 自 代 
码 的 小 型 RDF 模型 。 这 两 个 API 在 功能 上 相互 
补充 ， 并且 实 际 上 经 常 一 起 使 用 。Sesame 支持 
两 种 查询 语言 SPARQL 和 SeRQL， 也 可 以 通 
过 LuceneSail 添加 自由 文本 搜索 功能 。 


O CORE 对 我 国 机 构 知 识 库 的 应 用 
建议 

CORE 通过 集成 世界 各 地 的 OA 论文 元 数 
据 和 人 全文， 提供 了 基于 论文 相似 度 的 推荐 服务 
和 基于 关联 数据 的 语义 服务 ， 完 成 了 OA 元 数 
据 集成 向 内 容 集成 的 有 效 转换 ， 提 高 了 资源 的 
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可 见 度 和 访问 率 ， 对 传统 的 OA 知识 库 集成 系 
统 进行 了 发 展 ， 对 我 国 仍 处 于 初级 阶段 的 机 构 
知识 库 的 发 展 和 完善 具有 一 定 的 新 意 和 借鉴 意 
义 。 笔 者 从 论文 关系 发 现 过 程 、 论 文 推 荐 服务 
和 关联 数据 服务 3 个 方面 总 结 了 CORE 系统 对 
我 国 机 构 知 识 库 完善 的 启示 。 

在 论文 关系 发 现 方面 ， CORE 先 收割 元 数 
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(1) 在 全 文 内 容 下 载 方面 ， 主 要 涉及 文件 
下 载 速度 和 数据 存储 成 本 问题 。 针 对 下 载 速 度 
问题 , CORE 通过 使 用 缓冲 流 ( BufferedStream ) 
将 全 文 内 容 先 下 载 到 开放 大 学 服务 需 上 ， 用 以 
解决 在 远程 服务 器 相应 非常 慢 时 自动 取消 下 载 
的 问题 。 有 关 数 据 存储 成 本 问题 ， 鉴 于 CORE 
需要 从 许多 开放 获取 存储 库 中 下 载 数据 ， 系 统 


据 ， 并 进一步 从 收割 到 的 元 数据 中 提取 URI 字 
段 ,之 后 通过 HTTP 协 议 自动 从 知识 库 下 载 全 文 ; 
在 此 基础 上 通过 自然 语言 处 理 技 术 从 下 载 的 论 
文中 提取 文本 ,然后 通过 计算 “论文 对 ”之 间 
的 语义 相似 度 来 识别 其 关联 强度 。 目 前 ， 我 国 
机 构 知 识 库 整合 系统 已 实现 了 元 数据 层面 的 收 
制 ， 并 未 实现 全 文 的 获取 ， 但 在 所 收割 的 元 数 
据 字 段 中 已 包含 URI 字段， 后 续 需 要 通过 URI 
实现 全 文 获取 ， 并 将 获得 的 全 文通 过 自然 语言 
处 理 技术 提取 文本 ,计算 论文 对 之 间 的 相似 性 
来 识别 论文 关系 。 

在 论文 语义 推荐 服务 方面 ，CORE 通过 将 
其 开发 CORE Recommender 插件 部 署 在 CORE 
内 或 者 其 他 知识 库 中 实现 论文 推荐 。 我 国 机 构 
知识 库 可 借鉴 这 种 思路 ， 研 发 推荐 服务 系统 或 
者 引进 CORE Recommender 插件 部 署 在 机 构 知 
识 库 中 ， 以 此 来 为 用 户 推 荐 相似 论文 。 

在 关联 数据 服务 方面 ， CORE 通过 利用 现 
有 的 词汇 表 MuSim 相似 度 本 体 、BIBO 书目 本 
体 和 Sesame 平台 对 论文 数据 进行 关联 化 发 布 ， 
方便 用 户 更 好 地 进行 语义 链接 。 我 国 可 以 通过 
分 析 机 构 知 识 库 的 数据 进行 建 模 ， 尽 可 能 复 用 
现 有 的 成 熟 的 词汇 表 对 数据 进行 描述 ， 并 利用 
开源 的 关联 数据 发 布 工具 和 平台 对 机 构 知 识 
中 的 文献 资源 进行 语义 化 组 织 和 发 布 ， 从 而 提 
高 资源 的 可 发 现 性 和 可 见 度 。 


O CORE 论文 关系 发 现 过 程 及 服务 
中 遇 到 的 问题 

CORE 在 论文 关系 发 现 过 程 及 提供 的 相关 
服务 中 也 有 许多 问题 和 挑战 需要 去 解决 ， 具 体 
的 解决 方法 如 下 : 


需要 较 大 的 磁盘 空间 ， 同 时 为 了 执行 系统 备份 
并 允许 系统 快速 响应 ， 选 择 快 速 串 行 连 SCSI 
(Serial Attached SCSI, SAS ) 磁盘 。 

(2) 在 提取 文本 方面 ，CORE 测试 了 3 个 
PDF 文本 提取 系统 : iText, Apache Tika( PDFBox ) 
All pdftotext， 最 后 发 现 虽然 Apache Tika 的 提取 
速度 非常 慢 但 提取 到 的 文本 质量 较 高 。 最 终 ， 
通过 使 用 BufferedStreams 先行 缓冲 ， 设 法 加 快 
提取 速度 。 

(3 ) 在 相似 度 计算 方面 ,为 了 能 够 在 合理 
的 时 间 内 发 现 相 关 的 论文 ， 涉 及 大 量 的 论文 组 
合 问题 。CORE 开发 了 一 种 新 的 启发 式 方法 ， 
通过 使 用 文档 频率 切割 标准 来 减少 要 考虑 的 组 
合 数量 ， 并 考虑 到 计算 结果 的 质量 问题 ，CORE 
在 Lucene 库 上 开发 了 自己 的 TextAnalyzer 和 
TextFilter， 用 于 过 滤 数 学 公式 、 数 字 和 其 他 类 
型 的 噪声 数据 等 。 


@ 结 话 


笔者 通过 对 CORE 论文 元 数据 和 全 文 获取 
过 程 、 论 文 之 间 关 系 语 义 相 似 度 计算 的 论文 关 
系 发 现 过 程 以 及 基于 发 现 的 论文 语义 关系 提供 
的 服务 进行 了 分 析 ， 为 我 国 在 开放 获取 知识 库 
论文 关系 发 现 过 程 、 论 文 推 荐 服务 和 关联 数据 
服务 3 个 方面 提供 了 有 力 的 参考 ,但 是 CORE 
也 存在 下 载 速度 慢 、 存 储 开销 大 、PDF 中 文本 
提取 速度 慢 、 相 似 度 计算 准确 度 等 问题 ， 围 绕 
这 些 问 题 和 挑战 还 有 待 进 一 步 深入 的 研究 。 
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Research on CORE Paper Association Discovery and Semantic Services Based on Semantic 
Similarity 
Bai Linlin Wan Ni 
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Abstract: [Purpose/significance] This paper dissects the process and services of article association 
discovery in Connecting Repositories, and hopes to provide powerful reference for the recommendation and 
semantic linking of the content of articles in Chinese open access repositories. [Method/process] This paper 
analyzed the discovery process of article association based on semantic similarity and the semantic services 
based on article association. The discovery process of article association based on semantic similarity includ- 
ed metadata and full-text content harvesting, and semantic similarity calculation of article association. The 
semantic service based on the discovery process of article association included the CORE recommendation 
service and the linked open data service. And this paper summarized the application suggestions of CORE to 
Chinese institutional repositories. [Result/conclusion] This paper finds CORE system automatically harvests 
the metadata of the open access repositories through the existing OAI-PMH protocol, and further extracts the 
URI fields from the metadata to download the full-text through the HTTP protocol. Furtherly, providing ar- 
ticle recommendation services and services of data linked articles based on the discovery of article semantic 
association enables third-party systems to utilize CORE datasets, it provides a powerful reference in recom- 
mendation and semantic linking of article association for open access repositories (such as institutional repos- 
itories and open access journals) in China. 

Keywords: Connecting Repositories semantic similarity article association recommendation sys- 
tem linked data 


